Extraction d'entités dans des collections évolutives

نویسندگان

  • Thierry Despeyroux
  • Eduardo Fraschini
  • Anne-Marie Vercoustre
چکیده

Résumé. Nous nous intéressons à l’extraction d’entités nommées avec comme but d’exploiter un ensemble de rapports pour en extraire une liste de partenaires. À partir d’une liste initiale, nous utilisons un premier ensemble de documents pour identifier des schémas de phrase qui sont ensuite validés par apprentissage supervisé sur des documents annotés pour en mesurer l’efficacité avant d’être utilisés sur l’ensemble des documents à explorer. Cette approche est inspirée de celle utilisée pour l’extraction de données dans les documents semi-structurés (wrappers) et ne nécessite pas de ressources linguistiques particulières ni de larges collections de tests. Notre collection de documents évoluant annuellement, nous espérons de plus une amélioration de notre extraction dans le temps.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques

Résumé. Dans cet article nous détaillons une approche permettant de détecter des affixes et des termes déclencheurs à partir de dictionnaires de façon automatique en se basant sur l’algorithme de la plus longue sous-chaîne commune, dans le cadre de la reconnaissance d’entités nommées chimiques sur CHEMDNER. Nous verrons ensuite des méthodes de sélection et de tri afin de les intégrer au mieux d...

متن کامل

La prise en compte de la dimension temporelle dans la classification de données

Résumé. Dans un contexte d’ingénierie de la connaissance, l’analyse des données relationnelles évolutives est une question centrale. La représentation de ce type de données sous forme de graphe optimisé en facilite l'analyse et l'interprétation par l’utilisateur non expert. Cependant, ces graphes peuvent rapidement devenir trop complexes pour être étudiés dans leur globalité, il faut alors les ...

متن کامل

Extraction et identification d'entités complexes à partir de textes biomédicaux

Résumé. Nous présentons ici un système d’extraction et d’identification d’entités nommées complexes à l’intention des corpus de spécialité biomédicale. Nous avons développé une méthode qui repose sur une approche mixte à base d’ensemble de règles a priori et de dictionnaires contrôlés. Cet article expose les techniques que nous avons mises en place pour éviter ou minimiser les problèmes de syno...

متن کامل

Cadre d'évaluation de systèmes de reconnaissance d'entités nommées spatiales

RÉSUMÉ. La reconnaissance d’entités nommées est une tâche de l’activité d’extraction d’information dans des corpus textuels. Des systèmes de reconnaissance d’entités nommées spatiales sont très largement utilisés, mais souvent sans en connaître les forces et faiblesses. C’est pourquoi nous proposons le cadre d’évaluation SNERBM (Spatial Name Entity Recognition BenchMark) comme référentiel commu...

متن کامل

Approximation de collections de concepts formels par des bi-ensembles denses et pertinents

Résumé : Le calcul de concepts formels, et plus généralement l’usage des treillis de Galois pour l’extraction de connaissances, a motivé de très nombreuses recherches. Grâce à des progrès algorithmiques récents, ces techniques fournissent des motifs particulièrement intéressants pour l’analyse de grandes matrices codant l’expression de milliers de gènes dans des situations biologiques variées. ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007